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基于 生成 对 抗 网 络 的 恶意 域名 训练 数据 生成 - 
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摘 要 : 当前 僵尸 网 络 大 量 采用 DGA 算法 躲避 检测 ， 针 对 主流 的 基于 人 工 规则 的 检测 算法 无 法 对 最 新 产生 的 DGA 域 
名 进行 识别 检测 和 基于 机 器 学 习 的 检测 算法 缺乏 演化 的 训练 数据 的 问题 ,提出 了 一 种 基于 Ascall 编码 方式 定义 域名 编 、 
解码 器 ， 并 结合 生成 对 抗 网 络 构造 域名 字符 生成 器 来 预测 生成 DGA 变 体 样本 的 方法 。 实 验 结 果 表明 ， 在 采用 生成 数 
据 进 行 分 类 器 训练 和 性 能 评估 中 ， 此 方法 生成 的 DGA 域名 变 体 样本 可 充当 真实 DGA 样本 ， 验 证 了 生成 数据 的 有 效 性 
并 可 用 于 DGA 域名 检测 器 的 训练 评估 。 
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Generation of malicious domain training data based on generative adversarial network 


Yuan Chen, Qian Liping, Zhang Hui, Zhang Ting 
(College of Electrical & Information Engineering, Beijing University of Civil Engineering & Architecture, Beijing 100044, 
China) 


Abstract: Many malware families such as botnet utilize domain generation algorithms(DGAs) to evade detection at present. 
The mainstream detection algorithms based on artificial rules and machine learning have some limitations due to the fact that 
DGAs generate domain characters timely and rapidly. The former is somewhat blind to new DGA variants. The latter suffers 
from the lack of evolving training data. In order to solve these problems, domain encoder and decoder on account of the method 
of Ascall encoding was defined in this paper and they were combined with the concept of generative adversarial network(GAN) 
to construct domain character generator. Then the generator was used to predict and generate DGA variants. Experiment results 
show that the DGA variants generated by this method can act as real DGA samples when these variants are utilized to train and 
estimate classifiers . This verifies the validity of the generated data and they can be effectively utilized to train and estimate 
DGA domain detector. 
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意 域名 黑 名 单 的 检测 ， 广 泛 采 用 域名 生成 算法 技术 (domain 
generation algorithm, DGA ), 亦 称 做 域名 变换 技术 (domain flux ) 


lf 


0 5 引 
随 着 互联 网 应 用 的 快速 发 展 , 互联 网 承载 的 利益 越 来 越 大 ， ”来 快速 频繁 变换 域名 外 DGA 算法 通过 将 操控 僵尸 网 络 主 
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各 种 网 络 攻击 模式 不 断 创 新 ， 网 络 安全 事件 的 检测 难度 不 断 真实 域名 (又 称 C&C 控制 器 ) 进行 混淆 和 变换 ,掩饰 真实 主机 


大 。 木 马 和 僵尸 网 络 已 成 为 变化 形式 最 快 、 涉 及 范围 最 广 、 的 全 地 址 以 躲避 检测 ,大 大 降低 了 检测 系统 的 检测 能 力 。 
接 危 害 最 重 的 网 络 威胁 之 一 。 据 2016 年 CNCERT/CC 抽样 监 为 恶意 域名 已 成 为 网 络 僵尸 和 木马 寄生 的 主要 手段 ， 对 于 
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测 结果 显示 ,2016 年 我 国境 内 木马 或 僵尸 程序 控制 服务 器 耳 地 ”域名 的 识别 检测 一 直 是 网 络 安全 领域 研究 的 重点 和 热点 之 一 。 


丝 数量 为 48741 个 ， 较 2015 年 上 升 了 19.7%0]。 


前 学 术 界 针对 DGA 域名 检测 方法 从 多 角度 进行 了 探索 ， 
域名 系统 (Domain Name System，DNS》 作 为 互联 网 通信 如 统计 学 分 析 、 主 机 行为 分 析 、 网 络 行为 分 析 等 。 统 计 学 分 析 
的 基础 服务 ， 主 要 功能 是 将 易于 人 为 记忆 理解 的 域名 翻译 成 机 。 主要 考虑 DGA 域名 的 字符 频率 分 布 特性 、 主 机 域名 访问 数量 
器 可 以 理解 的 主机 他 地 址 。 由 于 DNS 服务 的 普遍 性 ， 攻 击 者 。 等 ， 主 机 行为 分 析 主 要 考虑 域名 的 客户 端 访问 特性 等 ， 网 络 行 


大 量 注册 恶意 域名 用 于 部 署 僵尸 和 木马 程序 ， 并 为 逃避 基于 恶 ” 为 分 析 主 要 考虑 网 络 流量 或 通信 特征 的 变化 或 异常 等 。 它 们 面 
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共同 局 限 是 难以 及 时 有 效 地 获 和 
数据 ， 导 致 检测 模型 更 新 周期 过 


fT DGA 域名 的 统计 特性 
对 抗 网 络 (generative adversarial network, GANI1) 

对 DGA 域名 进行 生成 预测 分 析 ， 生 成 数据 以 扩大 和 预测 训练 
仿 证 了 生成 数据 的 有 效 性 。 


GhinaX 
衷 辰 ， 等 : 基于 生成 对 抗 网 络 能 


3 
过 
SO 

但 

中 

者 


租 足 够 的 最 新 DGA 域名 训 
、 过 慢 ， 检 测 的 实效 


名 字符 特征 进行 学 习 ， 无 须 预 先 对 域名 进行 聚 类 、 特 征 提取 ， 
只 需 对 域名 进行 编码 和 解码 ， 即 可 构造 出 和 真实 DGA 样本 域 
名 相 类 似 的 生成 域名 。 与 文献 [11] 的 不 同 之 处 在 于 : a) 本 文采 


结合 深度 神经 网 


从 研究 对 象 角度 ， 目 前 DGA 检测 方法 主 


j DGA 域名 训练 GAN 用 于 生成 数据 , 训练 和 生成 数据 都 更 加 
有 具 有 针对 性 ; b) 本 文 为 最 大 化 利用 GAN 能 直接 对 样本 抽样 学 
习 的 特性 , 不 对 数据 做 复杂 的 处 理 和 变换 (如 不 采用 CNN 层 、 

pooling 层 等 )， 而 是 直接 将 数据 输入 GAN 原始 模型 进行 学 习 
训练 ， 以 保持 数据 的 真实 特性 ; c) 编 解码 器 的 构造 具有 简化 和 
贴近 原始 数据 的 特性 ， 从 而 最 大 化 保持 数据 的 真实 特性 ; d) 本 


Si 


要 包括 基于 类 
车 于 域名 的 访问 特 
党 域名 和 DGA 域 
离 〈Jaccard 距离 、 


E 离 等 ) 对 下 家 类 域名 修 进 生 分 类 识别 四 。 后 者 
单个 域名 的 分 析 ， 如 统计 域名 中 元 
正 态 分 或 频率 等 特性 名。 

从 检测 特征 角度 ， 主 要 有 基于 统计 由 


十 字符 频 度 或 长 


征 的 方法 、 基 于 网 络 
合集 成 式 方法 等 。 


文 对 生成 域名 样本 采用 更 广泛 的 分 类 算法 进行 了 分 类 验证 ， 进 
一 步 验证 了 生成 数据 具备 原始 数据 的 特性 和 其 有 效 性 。 


2 ”生成 对 抗 网 络 


GAN 思想 来 源 于 博弈 论 中 的 纳什 均衡 (4， 其 包含 一 对 模 

型 : 生成 模型 ( generative model ， 简 称 G) 和 判别 模型 
(discriminative model， 简 称 D )。 

G 如 同 假 币制 造 者 ，D 如 同 假币 识别 者 ，G 尽 可 能 地 学 习 

真 币 的 特征 以 提高 自己 欺骗 D 的 手法 , D 则 尽 可 能 地 训练 提升 


等 人 分 析 了 Water Tortue 的 DDoS 攻击 ， 通 过 研 
Ff 常 域名 查询 Wa 利用 域名 


块 的 2-gram 分 布 、 变 化 数量 等 
时 识别 ， 和 交 且 在: 95.59% 左 右 [9 
等 人 文献 基于 被 感染 的 伪 尸 主机 会 同时 查 
仅 有 少数 (C&C 控制 
于 DGA 算法 的 Botnet 难以 检测 和 存活 周 
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自 同一 霹 或 中 大 量 域名 
主机 ) 域名 查询 成 功 这 一 特性 ， 针 对 


全 
期 长 等 特点 ， 提 出 了 
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盟 DGA 域名 , 还 可 进 
背后 隐藏 的 Botnet， 从 而 | 
采用 大 约 115 万 域名 进行 验 说 


局 


china 


流量 的 查询 行为 进行 分 
。Stefano Schiavoni 等 人 提出 了 PHONENIX 探测 机 制 ， 除 
步 发 现 大 量 DGA 域名 
些 未 知 的 DGA 域名 ， 作 
E， 结 果 显示 该 机 制 的 识别 准确 


率 在 在 94.8% 左 右 国 。 


Yadav 人 言 学 的 
正常 域名 内 含 的 随机 特 
要 从 域名 的 字符 数字 
一 卫 地 址 的 域名 进行 分 类 ， 
由 距离 和 Jaccard 距离 等 实 


DGA ee nn 
基于 DNS 流量 的 探测 方法 , 主 
分 布 和 二 元 字符 入 手 ， 对 
通过 计算 域名 之 间 的 K-L 距离 、 
现 DGA 域名 的 检测 四 。 

从 检测 方法 角度 ,已 逐 


于 内 容 的 DPI、 统 计 分 析 


为 主 发 展 到 以 机 器 学 习 为 主 。 


取 与 僵尸 网 络 


攻击 相关 的 行为 特征 ,对 贝 叶 基 
行 了 评估 00。.DeepDGAD 
， 以 其 逃避 随机 森林 
守 上 所 述 ， 以 上 方法 存在 的 主 好 


4 络 、SVM 等 多 种 分 类 器 模 进 
用 生成 对 抗 网 络 对 抗 生 成 更 难以 检 


于 难以 实时 检测 


人 
集 困 难 、 环 境 普 适 
得 化 述 灌 ， 从 而 影响 到 检测 


4 洒 


一 
至 有 


度 廿 池 


， 直 接 对 DGA 域 


识别 能 力 以 避免 被 G 欺骗 。GAN 的 学 习 过 程 就 是 G 和 D 之 间 
的 一 种 竞争 训练 过 程 外 。 文 献 [4] 将 这 一 思想 表示 成 式 (1): 


ming maxp V(G, D) = 


Ex~pyoat sD 人 per) [logd- D(G(z)))] (1) 


式 (1) 也 称 为 min- max 公式 , 式 中 V(G,D) 为 价值 函数 。 对 应 
的 GAN 神经 网 络 模 型 如 图 1 所 示 [3]。 


真实 数据 X~PDuura (2) ES 
- [True 入 
识别 模型 一 Fal Se) 
二 到 G 上 -生成 模型 | GO 下 


图 1 GAN 网 络 模型 示意 图 


当 将 GAN 训练 用 于 数据 生成 时 , 假设 存在 真实 数据 x (分 
类 为 1 )、 生 成 数据 zx (分 类 为 0), 对 于 DD， 最 优 的 结果 是 将 尽 


可 能 多 的 x 判别 为 1， 将 尽 可 能 多 的 z 判 别 为 0， 即 D(x) ~1 


且 DP(G(z)x0， 此 时 有 maxpV(G,D)=。 如 果 x 被 误 判 ， 即 


D(XW)x0 或 D(G(z)x1 ， 则 有 log(D(x)x-% 或 
log(l - D(G(z)) x -%，, 此 时 V(G,D)-%, 所 以 DD 的 学 习 过 程 就 是 
不 断 提升 V(D,6) 。 对 于 G, 最 优 的 结果 是 让 DD 将 尽 可 多 的 让 判 
别 为 0， 将 尽 可 能 多 的 Z 判别 为 1， 即 D(x) ~ 0 且 DPD(G(z))~x1， 
此 时 有 式 (2) 向 。 

minG V(G,D)=maxG (Ez ~ p, [log(D(G(D)))) @Q) 


G 和 D 在 训练 中 经 多 轮 竞争 最 终 达 到 平衡 时 
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D(G(z)) = 0.5， 


此 时 真实 数据 和 生成 数据 将 非常 相似 。GAN 理 
论 上 可 以 完全 通 近 真实 数据 的 分 布 模型 ， 这 是 GAN 神经 网 络 
的 最 大 优势 和 特点 。 
字符 生成 模型 
3.1 域名 字符 分 析 
里 论 上 GAN 中 的 生成 器 和 判别 器 部 分 采用 任意 可 微 函 数 
都 能 表示 ， 因 此 其 主要 用 于 连续 数据 的 处 理 ， 如 图 像 生成 、 视 
频 检测 等 031。 基 于 文本 的 离散 数据 处 理 一 直 是 深度 神经 网 络 研 
究 的 难点 之 一 。 本 文 基于 字符 串 的 文本 域名 来 构建 生成 网 络 ， 
在 构造 训练 GAN 之 前 ， 需 要 对 域名 数据 样本 做 变换 处 理 。 
域名 在 构造 上 可 分 为 两 部 分 : 主机 名 和 域名 《包括 顶级 域 
及 可 能 的 二 级 域 、 三 级 域 等 )。DGA 域名 在 构造 上 一 般 用 随机 
算法 来 生成 主机 名 ， 域 名 部 分 相对 固定 或 变化 较 少 。 如 symmi 
的 DGA 域名 hakueshoubarddns.net， 其 域名 是 由 元 辅音 字符 生 
成 器 和 ddns.net 组 合 
gkrobqo.info 等 也 是 由 同 频率 的 字符 生成 器 和 一 级 域名 组 合 而 
成 。 因 此 本 文中 在 生成 域名 时 不 考虑 域名 数据 集中 的 一 二 级 域 
名 部 分 ,只 对 DGA 算法 生成 器 的 主机 名 的 字符 特性 进行 分 析 。 
本 文 基于 GAN 的 DGA 域名 数据 生成 模型 主要 包括 域名 
编码 器 、 生 成 网 络 、 对 抗 网 络 和 域名 解码 器 四 个 部 分 。 
3.2 域名 编 、 解 码 器 
假设 去 除 顶 级 和 二 级 域 的 域名 字符 为 4 顺序 散 列 后 组 成 


3 DGA 域名 


的 向 量 为 了 ， 即 =4d1,d2,.diidn] ”其 中 "为 域名 长 度 ， 


了 区 


diG=12…m) 为 域名 字符 。 字 符 Ascall 码 值 转换 函数 为 


f(x) = A(x) ， 域 名 字符 向 量 也 -Ia d ] 可 转换 为 形 如 


ACqd)=[A(d1),A(d2),…A(dD),…Aldn)] 的 域名 Ascall 向 量 。 为 使 GAN 


Wp 


数据 归 


的 学 习 效率 更 高 ， 采 ) 化 将 域名 Ascall 向 量 4(2) 的 


值 映射 到 区 间 [0 。 对 于 i=1,2…n ， 映 射 式 如 (3) 所 示 : 


A(d;) —min A(d;) 
A (di)= 
(a max A(d;)—min A(d;) 


考虑 到 ASCII 码 表 区 间 为 [0127， 而 区 间 [032 中 的 字符 值 
不 能 打印 输出 以 及 域名 内 无 此 种 字符 的 特性 ， 编 码 器 映射 函数 
的 定义 域 取 为 B3127 ， 值 域 为 [0 ， 则 minA(di) 值 为 33 ， 


max4(di) 值 为 127。 经 上 述 映 射 后 域名 向 量 了 被 映射 为 


> 
da 


=[A’ (dD),A (qd2),..A (di),..A (di)]® 例如 域名 ampavhunh, 域名 


> 
d =[a,m, p,a,v,h,u,n,h] ? 则 


性 
慌 
可 
好 


[成 ;ConfickerC 的 DGA 域名 plrjgcjzf.net、 
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编码 后 的 域名 向 


lm 


< 
A(d)=[97,10911297,118104117110104] ? 


= 
d= [0.673684,..,0.673684,..,0.747368 


名 向 量 转 换 为 GAN 的 训练 数据 ， 最终 
度 神经 网 络 运 算 的 张 量 。 
域名 张 量 还 原 成 域名 字符 串 。 其 实质 是 上 述 解码 器 的 镜像 。 
因此 域名 解码 器 的 反 向 映射 公式 如 式 (4) 所 示 。 

A(di)= A(di)*[maxA(d;)* minA(d;)]+ minA(d;) (4) 
其 中 : max4(di) 为 区 间 B312 的 上 限 , min4(4i) 为 区 间 的 下 限 ， 
4 (di) 为 生成 网 络 生成 的 域名 字符 向 量 中 的 元 素 。 对 于 ASCII 
码 值 在 区 间 [03 内 的 元 素 , 因 其 无 法 打印 输出 显示 且 域 名 中 实 
际 不 含 此 类 字符 ， 故 解码 器 对 此 类 字符 元 素 予 以 自动 舍弃 ， 只 
考虑 区 间 [33127 内 的 字符 元 素 。 
段 设 生成 网 络 生 


。 经 此 编码 器 编码 后 , 字符 域 


通过 Tesorflow 转换 为 深 


成 的 域名 人 向量 


d” =[A’ (di),A (d2),..A (di).A (di)]? 


解码 后 域名 向 量 转换 为 


Ascall 向 量 里 4 人- [4(d] )， A(d2),. .Ald; De A(dn)] » 若 假 设 Ascall 三 


值 函 数 的 反 函 数 为 f(x)=A4-1(x) ， 则 经 /Co ,Ascall 向 量 Ar 被 


映射 为 了 d =[d1,d2 dn]’ 将 了 中 的 元 素 4i 顺序 组 合 后 即 为 


PR A 


域名 字符 串 41,42,di,…,dn 。 
3.3 生成 网 络 
生成 网 络 由 四 层 神经 网 络 组 成 ， 包 括 输入 层 、 隐 含 屋 和 输 
出 层 ， 如 图 4 所 示 。 其 中 输入 层 数 据 来 源 于 高 斯 分 布 模型 并 随 
机 产生 m=100 维 的 数据 , 激活 函数 采用 ReLu 函数 。 网 络 包含 两 
层 隐 会 层 ， 节 点 数 分 别 为 a=150 和 nm=300， 激 活 函 数 亦 采 用 
ReLu 函数 。 输 出 层 节点 数 为 n=15〔 即 域名 向 量 维度 )， 考 虑 到 
或 名 向 量 元 素 区 间 为 [0] ， 因 此 输出 层 的 激活 函数 采 
3.4 判别 网 络 
判别 网 络 同样 为 四 层 神 经 网 络 ， 包 括 输入 层 、 隐 含 层 和 输 
出 层 。 其 中 输入 层 的 数据 来 源 有 二 ， 一 部 分 来 源 于 真实 数据 ， 
另 一 部 分 来 源 于 生成 网 络 生 成 的 生成 数据 ， 本 文 将 域名 长 度 设 
为 15， 因 此 输入 数据 维度 n=30。 两 层 隐 含 层 的 节点 数 分 别 
为 n=150 和 n=300, 激活 函数 采用 ReLu 函数 。 输出 层 激活 函数 
为 sigmoid 函数 ， 数 据 在 经 过 激活 函数 运算 之 前 ， 将 前 15 维 数 
据 和 后 15 维 数据 拆 分 进行 运算 ， 分 别 输出 真实 数据 和 生成 数 
据 的 dropout4, 即 以 一 定 概率 随机 丢弃 , 防止 网 络 出 现 过 拟 合 。 
综 上 所 述 ,由 编码 器 、 解 码 器 、 生 成 网 络 、 识 别 网 络 组 成 的 
网 络 模型 如 图 2 所 示 。 


4 sigmoid 
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判别 网 络 


一 真 / 假 ? 


解码 器 


一 生成 数据 | 
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4 ”实验 与 分 析 


4.1 实验 环境 


E 成 网 络 模型 


4.3 实验 设计 


结合 生成 恶意 域名 训练 数据 


本 文中 的 实验 环境 主要 包括 实验 平台 和 环境 


配置 两 部 分 。 


效 性 ， 实 验 设计 如 下 : 


通 


本 文 在 GAN 模型 的 基础 上 尝试 将 Ascall 编码 方式 与 其 相 
过 分 类 器 性 能 验证 数据 的 有 


里 后 的 百 万 级 


F 训练 和 生成 类 似 DGA 恶意 
域名 样本 。 在 每 个 网 络 训练 的 epoch 内 (1 个 epoch 等 于 使 用 
本 训练 一 次 ) 生成 网 络 产生 出 每 次 训练 结 

居 ， 每 次 产生 bach_size 个 〈 批 大 小 ) 列表 数据 。 


统计 特征 ,包括 域名 长 度 、 


n-gram 频率 (n=2、3、4、5)、n-gram 正 态 分 品 (n=2、3、4、 


集 与 真实 DGA 下 样本 的 分 类 。 采 用 b 中 
进行 分 类 ， 此 为 后 续 两 次 分 类 结果 的 对 比 基 


环境 配置 的 详细 信息 如 表 1 所 示 。 a) 类 似 DGA 域名 字符 生成 。 本 部 分 将 预 处 
表 1 实验 平台 与 环境 配置 域名 输入 域名 字符 生成 模型 ， 用 于 
实验 平台 环境 配置 
操作 系统 Ubuntu 16.04 训练 集中 的 全 部 样 
内 存 4GB 后 的 生成 数 所 
CPU Intel Corei5-3210 2.5GHz b) 特 征 选取 .特征 部 分 主要 选 
编程 语言 Python 2.7 
深度 学 习 框 架 Tensorflow 0.12.0 5)、 域 名 元 音频 率 和 域名 辅音 频率 。 
机 器 学 习 平 台 WEKA38 c) Alexa 负 样 本 
的 特征 对 本 数据 集 
4.2 数据 集 准 值 ， 也 是 验证 生成 数据 有 效 的 基准 。 


数据 集 有 四 部 分 : 100 万 条 ConfickerC 真实 DGA 恶意 二 
名 样本 、Alexa 排名 前 5000 的 负 样 本 和 真实 DGA 随机 选取 辫 
5000 个 正 样 本 、Alexa 排名 前 5000 的 负 样 本 和 生成 类 似 DGA 
的 5000 个 正 样本 、Alexa 排名 前 10000 的 负 样 本 和 5000 个 随 
机 真实 DGA 样本 与 5000 个 随机 生成 的 类 似 DGA 样本 组 成 的 


正 样本 。 


选取 划分 以 上 数据 集 后 , 需要 对 其 进行 预 处 理 。 处 理 


d) 


部 分 分 类 同样 采用 


Alexa 负 林 


类 结果 进行 比较 ， 


实 样本 ， 


如 


a) 针对 DGA 域名 的 构成 特性 , 采用 python 
函数 spit 对 域名 进行 拆 分 ， 截 取 拆 分 后 的 前 部 分 


数组 列表 
或 名 字符 ， 去 


除 项 级 域 及 可 能 的 二 级 域 、 三 级 域 等 ， 本 部 分 处 


万 级 DGA 恶意 域名 样本 、Alexa 排名 前 5000 的 负 样 本 和 DGA 
随机 选取 的 5000 个 正 样 本 、Alexa 排名 前 10000 的 负 样 本 ， 
GAN 生成 数据 后 续 产 生 直 接 解码 成 字符 ， 不 需 预 处 理 。 


理 主 要 包括 百 


效 性 。 


b) 百 万 级 域名 经 过 上 述 a 处 理 后 , 为 了 缩短 
GAN 训练 时 的 内 存 消耗 ， 预 先 对 域名 字符 进 
归 一 化 处 理 ， 的 数据 标准 读 
GAN 神经 网 络 的 输入 张 量 。 


通过 Tensorflow 中 


e)Alexa 


4.4 实验 结果 
4.4.1 类 似 DGA 域名 字符 生成 结果 
为 体现 生成 网 络 的 学 习 特 性 ， 本 文 对 不 同学 习 阶 段 的 生成 


训练 时 间 和 减 ”数据 进行 了 跟踪 输出 ， 生 成 数据 的 结果 如 图 3 
行 数据 编码 与 ”内 的 数据 为 真实 DGA 样 


取 格 式 转换 成 


合 0 一 1 


250~25 


3 产生 的 样本 。 


EF 本 集 与 生成 类 似 DGA 正 样本 集 的 分 类 。 本 
b 中 的 特征 进行 分 类 ， 分 类 结果 与 c 中 的 分 
的 是 为 了 验证 类 似 样本 可 L 
从 而 说 明生 成 数据 的 有 效 性 。 
负 样 本 集 与 真实 DGA 和 生成 类 
混淆 分 类 。 本 部 分 分 类 同样 采用 b 


当 DGA 


以 DGA 样本 集 的 


, 第 二 椭圆 内 的 数据 为 GAN 对 抗 区 
0 产生 的 样本 ， 第 三 椭圆 内 的 数据 为 GAN 对 抗 


的 特征 


进行 分 类 ， 将 分 类 


结果 与 c 中 的 结果 进行 对 比 , 此 分 类 是 为 了 说 明 在 真实 DGA 与 
入 分 “生成 类 似 DGA 混淆 情况 下 ， 如 果 分 类 器 结 
DGA 数据 


良好 ， 那 么 生成 


L 备 真实 DGA 数据 的 特征 ， 也 验证 了 生成 数据 的 有 


所 示 。 第 一 椭圆 
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4.4.2 分 类 验证 结果 
分 类 器 选取 Weka 3.8 中 的 朴素 贝 叶 斯 、J48、 随 机 树 及 随 
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合生 成 样本 


3 真实 样本 和 不 同 对 抗 


表 发， 等 : 基于 生成 对 我 网 络 的 吓 


总 


表 6 Alexa 样本 和 混淆 样本 分 类 结果 


正确 率 ”错误 率 ”精确 率 ”F-Measure ”ROC 面积 


0.988 0.012 0.989 0.988 0.999 
0.962 0.038 0.963 0.962 0.982 
0.981 0.019 0.981 0.980 0.981 
0.989 0.011 0.989 0.989 1.00 


表 7 样本 分 类 的 结果 及 模型 构建 时 间 


4.5.1 类 似 DGA 域名 字符 生成 结果 分 析 


作为 域名 的 角度 一 


分 类 正确 数 分 类 错误 数 
一 普 上 > 一 挛 上 > - 建 时 间 
正 样本 ” 负 样 本 正 样 本 负 样 本 
9771 9995 229 5 0.29s 
9756 9491 244 509 0.57s 
9818 9792 182 208 0.1s 
9928 9859 72 141 5.28s 

验 结果 分 析 


来 说 ， 首 先 图 3 中 真实 数据 是 取 


自 Conficker.C 版 本 的 恶意 DGA 域名 预 处 理 后 的 字符 , 为 GAN 


区 学 习 的 真实 世界 的 数据 ;对 抗 
F 始 的 对 抗 训练 时 生成 的 数据 , 此 时 产生 的 数据 和 真实 
数据 差别 很 大 , 大 部 分 数据 不 能 作为 域名 的 字符 。GAN 在 学 习 


频率 


机 森林 ， 性 能 评估 指标 有 正确 率 、 错 误 率 、 精 确 率 、F-measure 
值 及 ROC 面积 。 对 三 部 分 数据 集 的 分 类 结果 如 表 2、4、6 所 
示 ， 实 际 样本 分 类 结果 及 分 类 模型 的 构建 时 间 如 表 3、5、7 所 
示 。 
表 2 Alexa 样本 和 真实 DGA 样本 分 类 结果 
分 类 器 ”正确 率 “错误 率 ”精确 率 F-Measure ”ROC 面积 
贝 叶 斯 0.999 0.001 0.999 0.999 1.00 
J48 0.992 0.008 ”0.992 0.992 0.994 
随机 树 0.996 0.004 0.996 0.996 0.996 
随机 森林 ”0.997 0.03 0.997 0.997 1.00 
表 3 样本 分 类 的 结果 及 模型 构建 时 间 
Pe 分 类 正确 数 分 类 错误 数 人 
正 样 本 ” 负 样 本 ” 正 样本 ” 负 样 本 
贝 叶 斯 4999 4992 1 8 0.55s 
J48 4981 4940 19 60 0.57s 
随机 树 4986 4978 14 22 0.05s 
随机 森林 4995 4979 5 21 1.97s 
表 4 Alexa 样本 和 类 似 DGA 样本 分 类 结果 
分 类 器 。 正确 率 ”错误 率 ”精确 率 ”F-Measure ”ROC 面积 
贝 叶 斯 0.984 0.016 0.984 0.984 0.998 
J48 0.981 0.0.19 0.981 0.981 0.988 
随机 树 0.972 ”0.028 0.972 0.972 0.972 
随机 森林 0.983 ”0.017 ”0.983 0.983 0.999 
表 5 样本 分 类 的 结果 及 模型 构建 时 间 
分 类 正确 数 分 类 错误 数 
分 类 器 ”一 一 构建 时 间 
正 样本 ” 负 样 本 ” 正 样本 ” 负 样 本 
贝 叶 斯 4885 4983 145 17 0.1s 
J48 4901 4907 99 93 0.19s 
随机 树 4860 4863 140 137 0.04s 
随机 森林 ”4926 4902 74 98 2.4s 


I 


合 0 一 10 部 分 的 数据 是 


约 250 一 253 对 抗 回合 时 ， 生 成 数据 和 真实 数据 开始 趋 于 相 
中 的 大 部 分 数据 已 经 可 以 作为 域名 。 
角度 来 说 ， 对 生成 数据 进行 简单 第 选 与 整理 ， 噜 除 其 中 
少 部 分 不 能 作为 域名 的 数据 并 进行 一 元 字符 统计 分 析 ， 如 图 4 所 示 。 
色 代 表 真 实 DGA 样本 字符 频率 分 布 ， 黑 色 代表 GAN 字符 模型 生成 
黑色 数据 围绕 真实 DGA 样本 上 下 波动 ， 在 经 过 GAN 对 
吾 ， 频 率 分 布 在 大 样本 下 生成 的 DGA 样本 的 频率 围绕 真实 
DGA 的 平均 频率 0.0385 上 下 波动 ， 因 此 ， 从 字符 分 布 特性 的 角度 说 
明了 类 似 DGA 样本 和 真实 DGA 样本 已 经 具有 一 定 的 相似 性 。 


GAN 学 习 数 据 分 布 
真实 样本 
国生 成 样本 
abcdef8g ijklmnopqrstuvwxyz 
字符 
图 4 真实 样本 与 生成 样本 一 元 频率 分 布 


4.5.2 分 类 结果 分 析 
表 2、3 中 的 Alexa 和 真实 DGA 分 类 结果 可 以 看 出 ， 本 
I 特征 针对 Alexa 与 真实 DGA 的 样本 分 类 时 ， 朴 素 贝 
斯 与 随机 森林 分 类 效果 较 其 他 三 种 分 类 器 良好 。 因 此 ， 首 先 


上 描述 的 特征 对 于 正 负 样 本 分 类 有 效 , 其 次 , J48 和 


构建 训练 时 间 相 对 于 其 他 分 类 器 较 长 ， 时 间 复 杂 度 较 高 。 本 文 
假设 采用 表 工 中 真实 数据 样本 的 分 类 结果 作为 与 Alexa 样本 和 
类 似 DGA 分 类 、Alexa 样本 和 真实 与 类 似 DGA 混淆 样本 分 类 
的 对 比 基 准 值 。 
表 4、5 中 Alexa 和 类 似 DGA 分 类 结果 可 知 ， 
如 正确 率 、 错 误 率 、 召 回 率 、 精 确 率 、 
均 与 基准 值 保持 在 同一 性 能 状态 ， 说 明 在 分 类 特征 相同 的 情况 
下 ,生成 的 类 似 DGA 样本 可 以 充当 真实 DGA 数据 样本 ， 从 而 
说 明了 生成 数据 的 有 效 性 
表 6、7 中 Alexa 样本 和 混淆 样本 分 类 结果 可 知 ,在 Alexa 
正常 域名 样本 和 分 类 特征 不 变 的 情况 下 ， 真 实 DGA 样本 和 类 
似 样 本 混淆 分 类 器 的 指标 如 正确 率 、 错误 率 、 召回 率 、 精确 率 、 
F-measure 值 、ROC 面积 仍 与 基准 值 处 在 同样 的 性 能 状态 ， 说 
明 类 似 样 本 已 具备 真实 DGA 样本 的 部 分 特性 ， 也 同样 说 明 委 
成 的 类 似 样 本 有 效 。 
综 上 所 述 ， 本 部 分 从 能 否 作为 域名 、 域 名 的 字符 频率 及 多 
分 类 器 效果 对 比 三 个 层面 说 明 通 过 GAN 生成 的 数据 既 可 以 作 
为 域名 又 具备 DGA 域名 的 特性 ， 从 而 说 明了 数据 的 有 效 性 。 


分 类 指标 
F-measure 值 、ROC 面积 


o 


| 


| 


5 ”结束 语 


恶意 域名 识别 的 数据 集 采 集 是 网 络 安全 领域 中 恶意 域名 的 
伟 测 是 中 的 重要 任务 之 一 , 本 文 尝试 将 图 像 处 理 领 域 中 的 GAN 
对 抗 生 成 网 络 应 用 到 网 络 安全 中 去 生成 恶意 DGA 域名 字符 数 
据 集 。 解 决 恶 意 DGA 域名 的 训练 数据 生成 和 识别 检测 问题 ， 
通过 实验 初步 验证 了 此 方法 的 可 行 性 。 本 文中 为 最 大 化 利用 


GAN 神经 网 络 不 用 公式 化 描述 数据 分 布 和 能 够 对 原始 数据 直 
接 进 行 学 习 的 特性 ， 本 文 将 DGA 域名 字符 进行 简单 的 Ascall 


编码 与 数据 归 一 化 处 理 。 其 次 ， 为 了 限制 GAN 网 络 生成 数据 
过 于 自由 化 , 本文 编码 器 和 解码 器 部 分 均 对 映射 函数 的 定义 域 、 
值 域 部 分 进行 限制 ， 并 对 解码 数据 进行 自动 丢弃 ， 从 而 让 生成 
数据 更 符合 真实 样本 数据 。 本 文 下 一 步 工 作 将 进一步 研究 如 何 
改进 编 解码 器 以 充分 关联 域名 之 间 的 字符 序列 特性 ， 并 评估 其 
对 GAN 生成 数据 的 质量 影响 和 性 能 开销 。 
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